Modul 13 von 15 · 📖 6 min Lesezeit · ⏱ 30 min gesamt
FI-DPA 13 Maschinelles Lernen — Grundlagen und Algorithmen
Inhaltsverzeichnis (5 Abschnitte)
FI-DPA 13 Maschinelles Lernen — Grundlagen und Algorithmen
Modul 13 vermittelt die grundlegenden Konzepte des maschinellen Lernens, einschließlich der Unterscheidung zwischen überwachtem und unüberwachtem Lernen. Sie lernen die wichtigsten Algorithmen für Regression, Klassifikation und Clustering kennen sowie die Konzepte von Bias-Variance-Dilemma und Hauptkomponentenanalyse (PCA).
Die praktische Anwendung dieser Konzepte wird anhand typischer Algorithmen wie Decision Tree, Random Forest, k-NN, k-Means und PCA demonstriert. Nach Abschluss dieses Moduls können Sie geeignete ML-Verfahren für gegebene Problemstellungen auswerten und grundlegend anwenden.
Konzepte und Hintergrund
- Supervised Learning
- Überwachtes Lernen nutzt gelabelte Trainingsdaten, bei denen jede Eingabe mit der korrekten Ausgabe versehen ist. Ziel ist es, eine Funktion zu lernen, die neue, ungesehene Daten korrekt vorhersagen kann. Beispiele sind Klassifikation und Regression.
- Unsupervised Learning
- Unüberwachtes Lernen arbeitet mit ungelabelten Daten und sucht selbstständig in den Daten verborgene Muster oder Strukturen. Typische Anwendungen sind Clustering und Dimensionsreduktion.
- Regression
- Regression ist eine Form des überwachten Lernens, bei der das Ziel die Vorhersage eines kontinuierlichen Wertes ist. Beispiele sind die Vorhersage von Preisen oder Temperaturen.
- Klassifikation
- Klassifikation ist ebenfalls eine Form des überwachten Lernens, bei der Daten in vordefinierte Kategorien eingeteilt werden. Beispiele sind die Erkennung von Spam-E-Mails oder die Diagnose von Krankheiten.
- Clustering
- Clustering ist eine Methode des unüberwachten Lernens, bei der ähnliche Datenpunkte zu Gruppen (Clustern) zusammengefasst werden. Ziel ist es, die Datenstruktur zu entdecken.
Praktische Schritte
- Daten vorbereiten: Laden Sie Ihren Datensatz in ein geeignetes Format (z.B. CSV) und bereiten Sie ihn auf, indem Sie fehlende Werte behandeln und kategorische Variablen kodieren. Eine saubere Datenvorbehandlung ist entscheidend für die Qualität des Modells.
- Daten in Trainings- und Testset aufteilen: Verwenden Sie die train_test_split-Funktion aus scikit-learn, um Ihre Daten in einen Trainings- und einen Testdatensatz zu unterteilen. Dies ermöglicht eine objektive Bewertung des Modells.
- Modell auswählen und initialisieren: Wählen Sie einen passenden Algorithmus für Ihr Problem (z.B. RandomForestClassifier für Klassifikation) und initialisieren Sie das Modell mit geeigneten Parametern. Die Wahl des richtigen Algorithmus hängt stark von der Art Ihrer Daten und des Problems ab.
- Modell trainieren: Passen Sie das Modell an Ihre Trainingsdaten an, indem Sie die fit-Methode aufrufen. Während dieses Prozesses lernt das Modell die zugrundeliegenden Muster in den Daten.
- Modell evaluieren: Verwenden Sie Metriken wie Genauigkeit, Präzision oder F1-Score, um die Leistung des Modells auf dem Testset zu bewerten. Dies gibt Aufschluss über die Generalisierungsfähigkeit des Modells.
- Modell optimieren: Verwenden Sie Techniken wie GridSearchCV, um die Hyperparameter des Modells zu optimieren. Eine sorgfältige Hyperparameter-Optimierung kann die Modellleistung erheblich verbessern.
Häufige Fallstricke
Weiterführende Ressourcen
- Scikit-learn User Guide - Offizielle Dokumentation
- Machine Learning von Andrew Ng (Coursera)
- TensorFlow Tutorials - Deep Learning mit TensorFlow
Wissens-Check
Vier Fragen zur Selbstkontrolle. Klicken Sie jede Frage an, um die richtige Antwort und Erklärung zu sehen.
Was ist der Hauptunterschied zwischen überwachtem und unüberwachtem Lernen?
- A) Überwachtes Lernen verwendet immer neuronale Netze, unüberwachtes Lernen nicht
- B) Überwachtes Lernen benötigt gelabelte Daten, unüberwachtes Lernen arbeitet mit ungelabelten Daten
- C) Überwachtes Lernen ist immer genauer als unüberwachtes Lernen
- D) Überwachtes Lernen kann nur mit numerischen Daten arbeiten, unüberwachtes Lernen auch mit kategorialen Daten
Richtige Antwort: B. Der entscheidende Unterschied liegt in der Verwendung gelabelter Daten beim überwachten Lernen, während unüberwachtes Lernen ohne vordefinierte Labels arbeitet. Option A ist falsch, da beide Lernformen verschiedene Algorithmen umfassen. Option C ist nicht allgemein gültig, da die Genauigkeit von der Problemstellung abhängt. Option D ist falsch, da beide Lernformen mit verschiedenen Datentypen arbeiten können.
Zu welcher Kategorie des maschinellen Lernens gehört die Vorhersage von Hauspreisen basierend auf Merkmalen wie Größe, Lage und Baujahr?
- A) Klassifikation
- B) Clustering
- C) Regression
- D) Hauptkomponentenanalyse
Richtige Antwort: C. Regression ist die Vorhersage kontinuierlicher Werte wie Preise. Klassifikation wäre falsch, da sie in Kategorien einteilt. Clustering ist unüberwachtes Lernen und PCA dient der Dimensionsreduktion, nicht der Vorhersage.
Welches Problem entsteht, wenn ein maschinelles Lernmodell zu sehr an die Trainingsdaten angepasst ist?
- A) Unteranpassung (Underfitting)
- B) Überanpassung (Overfitting)
- C) Das Bias-Variance-Dilemma
- D) Das Problem der hohen Dimensionalität
Richtige Antwort: B. Überanpassung tritt auf, wenn das Modell zu spezifisch für die Trainingsdaten wird und nicht gut auf neue Daten generalisiert. Unteranpassung ist das Gegenteil. Das Bias-Variance-Dilemma beschreibt den trade-off zwischen beiden, ist aber nicht das Problem selbst. Hohe Dimensionalität bezieht sich auf die Anzahl der Merkmale.
Welcher der folgenden Algorithmen gehört zum unüberwachten Lernen?
- A) Decision Tree
- B) Random Forest
- C) k-NN
- D) k-Means
Richtige Antwort: D. k-Means ist ein Clustering-Algorithmus, der zu unüberwachtem Lernen gehört, da er ohne gelabelte Daten arbeitet. Decision Tree, Random Forest und k-NN sind alle Methoden des überwachten Lernens, die gelabelte Daten benötigen.